Models should be able to adapt to unseen data during test-time to avoid performance drops caused by inevitable distribution shifts in real-world deployment scenarios. In this work, we tackle the practical yet challenging test-time adaptation (TTA) problem, where a model adapts to the target domain without accessing the source data. We propose a simple recipe called \textit{Data-efficient Prompt Tuning} (DePT) with two key ingredients. First, DePT plugs visual prompts into the vision Transformer and only tunes these source-initialized prompts during adaptation. We find such parameter-efficient finetuning can efficiently adapt the model representation to the target domain without overfitting to the noise in the learning objective. Second, DePT bootstraps the source representation to the target domain by memory bank-based online pseudo-labeling. A hierarchical self-supervised regularization specially designed for prompts is jointly optimized to alleviate error accumulation during self-training. With much fewer tunable parameters, DePT demonstrates not only state-of-the-art performance on major adaptation benchmarks VisDA-C, ImageNet-C, and DomainNet-126, but also superior data efficiency, i.e., adaptation with only 1\% or 10\% data without much performance degradation compared to 100\% data. In addition, DePT is also versatile to be extended to online or multi-source TTA settings.
translated by 谷歌翻译
尽管完全监督的人类骨架序列建模成功,但使用自我监督的预训练进行骨架序列表示学习一直是一个活跃的领域,因为很难在大规模上获取特定于任务的骨骼注释。最近的研究重点是使用对比学习学习视频级别的时间和歧视性信息,但忽略了人类骨骼的层次空间时间。与视频级别的这种表面监督不同,我们提出了一种自我监督的分层预训练方案,该方案纳入了基于层次变压器的骨骼骨骼序列编码器(HI-TRS),以明确捕获空间,短期和长期和长期框架,剪辑和视频级别的时间依赖性分别。为了通过HI-TR评估提出的自我监督预训练方案,我们进行了广泛的实验,涵盖了三个基于骨架的下游任务,包括动作识别,动作检测和运动预测。根据监督和半监督评估协议,我们的方法实现了最新的性能。此外,我们证明了我们的模型在训练阶段中学到的先验知识具有强大的下游任务的转移能力。
translated by 谷歌翻译
神经建筑搜索(NAS)算法可节省人类专家的巨大劳动。最近的进步进一步将计算开销降低到负担得起的水平。但是,由于挑剔的程序和监督的学习范式,将NAS技术部署在现实世界应用程序中仍然很麻烦。在这项工作中,我们通过允许自我审议并保留在搜索阶段发现的伴随的权重,提出了自我监管和举重的神经体系结构搜索(SSWP-NAS)作为当前NAS框架的扩展。因此,我们将NAS的工作流程简化为单阶段和无代理程序。实验表明,通过所提出的框架搜索的架构实现了CIFAR-10,CIFAR-100和Imagenet数据集上的最新精度,而无需使用手动标签。此外,我们表明,使用伴随的权重作为初始化始终优于随机初始化和两阶段的权重预训练方法,在半监督的学习方案下清晰的边缘。代码可在https://github.com/lzvv123456/sswp-nas上公开获得。
translated by 谷歌翻译
作为新一代神经体系结构的变形金刚在自然语言处理和计算机视觉方面表现出色。但是,现有的视觉变形金刚努力使用有限的医学数据学习,并且无法概括各种医学图像任务。为了应对这些挑战,我们将Medformer作为数据量表变压器呈现为可推广的医学图像分割。关键设计结合了理想的电感偏差,线性复杂性的层次建模以及以空间和语义全局方式以线性复杂性的关注以及多尺度特征融合。 Medformer可以在不预训练的情况下学习微小至大规模的数据。广泛的实验表明,Medformer作为一般分割主链的潜力,在三个具有多种模式(例如CT和MRI)和多样化的医学靶标(例如,健康器官,疾病,疾病组织和肿瘤)的三个公共数据集上优于CNN和视觉变压器。我们将模型和评估管道公开可用,为促进广泛的下游临床应用提供固体基线和无偏比较。
translated by 谷歌翻译
磁共振(MR)图像重建来自高度缺点$ K $ -space数据在加速MR成像(MRI)技术中至关重要。近年来,基于深度学习的方法在这项任务中表现出很大的潜力。本文提出了一种学习的MR图像重建半二次分割算法,并在展开的深度学习网络架构中实现算法。我们比较我们提出的方法对针对DC-CNN和LPDNET的公共心先生数据集的性能,我们的方法在定量结果和定性结果中表现出其他方法,具有更少的模型参数和更快的重建速度。最后,我们扩大了我们的模型,实现了卓越的重建质量,并且改善为1.76美元$ 276 $ 274美元的LPDNET以5美元\倍率为5美元的峰值信噪比。我们的方法的代码在https://github.com/hellopipu/hqs-net上公开使用。
translated by 谷歌翻译
基于注意的模型,由变压器举例说明,可以有效地模拟长距离依赖性,而是遭受自我注意操作的二次复杂性,使得基于生成的对抗网络(GAN)的高分辨率图像生成使得它们难以采用。在本文中,我们向变压器推出了两个关键成分来解决这一挑战。首先,在生成过程的低分辨率阶段,用所提出的多轴阻塞自我关注取代了标准的全球自我关注,这允许有效地混合本地和全球关注。其次,在高分辨率阶段,我们降低了自我关注,同时只保持多层的感知让人想起隐含的神经功能。为了进一步提高性能,我们基于横向引入额外的自我调制组件。结果模型表示为命中,具有关于图像尺寸的几乎线性的计算复杂度,从而直接缩放到合成高清晰度图像。我们在实验中展示了所提出的命中,实现最先进的FID得分31.87和2.95在无条件的ImageNet上,分别具有合理的吞吐量的128美元和256美元\ times 256美元。我们认为,拟议的命中是全球发电机的一个重要里程碑,完全没有卷积。
translated by 谷歌翻译
3D计算机断层扫描扫描的肺结核检测在高效的肺癌筛查中起着至关重要的作用。尽管使用CNNS的基于锚的探测器获得的SOTA性能,但是它们需要预定的锚定参数,例如锚点的尺寸,数量和纵横比,并且在处理具有大量尺寸的肺结节时具有有限的鲁棒性。为了克服这些问题,我们提出了一种基于3D球体表示的中心点匹配的检测网络,该检测网络是无锚的,并且自动预测结节的位置,半径和偏移,而无需手动设计结节/锚参数。 SCPM-Net由两种新颖组件组成:球体表示和中心点匹配。首先,为了匹配临床实践中的结节注释,我们用所提出的边界球体替换常用的边界框,以表示具有质心,半径和3D空间局部偏移的结节。引入兼容的基于球体的交叉口损耗功能,以稳定且有效地培训肺结核检测网络。其次,我们通过设计正中心点选择和匹配过程来赋予网络锚定,自然地丢弃预定的锚箱。在线硬示例挖掘和重新聚焦损失随后使CPM过程能够更加强大,导致更准确的点分配和级别不平衡的缓解。此外,为了更好地捕获用于检测的空间信息和3D上下文,我们建议熔化具有特征提取器的多级空间坐标映射,并将它们与3D挤压和激励的关注模块相结合。 Luna16数据集上的实验结果表明,与肺结核检测的现有锚和锚定方法相比,我们所提出的框架达到卓越的性能。
translated by 谷歌翻译
Recent works on diffusion models have demonstrated a strong capability for conditioning image generation, e.g., text-guided image synthesis. Such success inspires many efforts trying to use large-scale pre-trained diffusion models for tackling a challenging problem--real image editing. Works conducted in this area learn a unique textual token corresponding to several images containing the same object. However, under many circumstances, only one image is available, such as the painting of the Girl with a Pearl Earring. Using existing works on fine-tuning the pre-trained diffusion models with a single image causes severe overfitting issues. The information leakage from the pre-trained diffusion models makes editing can not keep the same content as the given image while creating new features depicted by the language guidance. This work aims to address the problem of single-image editing. We propose a novel model-based guidance built upon the classifier-free guidance so that the knowledge from the model trained on a single image can be distilled into the pre-trained diffusion model, enabling content creation even with one given image. Additionally, we propose a patch-based fine-tuning that can effectively help the model generate images of arbitrary resolution. We provide extensive experiments to validate the design choices of our approach and show promising editing capabilities, including changing style, content addition, and object manipulation. The code is available for research purposes at https://github.com/zhang-zx/SINE.git .
translated by 谷歌翻译
Can a text-to-image diffusion model be used as a training objective for adapting a GAN generator to another domain? In this paper, we show that the classifier-free guidance can be leveraged as a critic and enable generators to distill knowledge from large-scale text-to-image diffusion models. Generators can be efficiently shifted into new domains indicated by text prompts without access to groundtruth samples from target domains. We demonstrate the effectiveness and controllability of our method through extensive experiments. Although not trained to minimize CLIP loss, our model achieves equally high CLIP scores and significantly lower FID than prior work on short prompts, and outperforms the baseline qualitatively and quantitatively on long and complicated prompts. To our best knowledge, the proposed method is the first attempt at incorporating large-scale pre-trained diffusion models and distillation sampling for text-driven image generator domain adaptation and gives a quality previously beyond possible. Moreover, we extend our work to 3D-aware style-based generators and DreamBooth guidance.
translated by 谷歌翻译
由于大分子系统中存在的各种时间尺度,其计算研究是必要的。粗粒(CG)允许在不同的系统分辨率之间建立联系,并为开发强大的多尺度模拟和分析提供骨干。 CG映射过程通常是系统和特定于应用程序的,它依赖于化学直觉。在这项工作中,我们探讨了基于变异自动编码器的机器学习策略的应用,以开发合适的映射方案,从原子体到分子的粗粒空间,并随着化学复杂性的增加而开发。对模型超级法对训练过程和最终输出的影响进行了广泛的评估,并通过定义不同的损失函数的定义进行了现有方法,并实施了确保输出物理一致性的选择标准。分析了输入特征选择与重建精度之间的关系,从而支持将旋转不变性引入系统的需求。在映射和背景步骤中,该方法的优势和局限性都得到了强调和严格的讨论。
translated by 谷歌翻译